热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

语料|分类法_西电综述《知识增强预训练模型》

篇首语:本文由编程笔记#小编为大家整理,主要介绍了西电综述《知识增强预训练模型》相关的知识,希望对你有一定的参考价值。点上方人工智能算法与

篇首语:本文由编程笔记#小编为大家整理,主要介绍了西电综述《知识增强预训练模型》相关的知识,希望对你有一定的参考价值。


点上方人工智能算法与Python大数据获取更多干货


在右上方 ··· 设为星标 ★,第一时间获取资源


仅做学术分享,如有侵权,联系删除


转载于 :专知


预训练模型是当下研究的热点,来自西电的研究人员发布《知识增强的预训练模型》,非常值得关注! 


预训练模型通过自监督学习方法在大规模文本语料库上学习上下文化的词表示,该方法经过微调后取得了良好的性能。然而,这些模型的健壮性差,且缺乏可解释性。带有知识注入的预训练模型(knowledge enhanced pre- training model, KEPTMs)具有深刻的理解和逻辑推理能力,并在一定程度上引入了可解释性。在这个综述中,我们提供了自然语言处理的KEPTMs的全面概述。首先介绍了预训练模型和知识表示学习的研究进展。然后我们从三个不同的角度对现有KEPTMs进行了系统的分类。最后,对KEPTMs的未来研究方向进行了展望。


https://www.zhuanzhi.ai/paper/2e6a280b91bab87be5075bc650650678


引言


数据和知识是人工智能的核心。深度学习[1],[2],[3]借助神经网络的分布式表示和层次结构泛化,可以充分利用大规模数据。基于深度学习的预训练模型[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]有了质的飞跃,促进了下游自然语言处理(NLP)的广泛应用。虽然它们可以从大规模的无监督语料库中获取词汇、句法和浅层语义信息,但它们是统计模型,受重尾数据分布的限制,导致无法深入理解和因果推理和反事实推理。此外,尽管深度学习在学习数据背后的关键因素方面很强大,但由于纠缠表示,预先训练的模型失去了可解释性。知识为模型提供了全面而丰富的实体特征和关系,克服了数据分布的影响,增强了模型的鲁棒性。此外,知识为模型引入了显式语义的可解释性。因此,利用不同的知识来实现预先训练的具有深度理解和逻辑推理的模型是必不可少的。为了更好地集成知识和文本特征,将符号知识投影到一个密集的、低维的语义空间中,并通过分布式向量通过学习[19]的知识表示来表示。在此背景下,研究人员探索了通过注入知识来概括知识驱动和语义理解所需场景的方法来改进预先训练的模型。


这项综述的贡献可以总结如下:


  • 全面综述。本文对自然语言处理的预训练模型和知识表示学习进行了综述。

  • 新分类法。我们提出了一种面向自然语言处理的KEPTMs分类法,根据注入知识的类型将现有KEPTMs分为三组,并根据知识与语料库的耦合关系和知识注入方法进一步划分不同组对应的模型。

  • 未来的发展方向。讨论分析了现有KEPTMs的局限性,并提出了未来可能的研究方向。


近年来,预训练模型的逐步发展引起了研究者的广泛关注。然而,尽管他们在创作上付出了巨大的努力,但却无法理解文本的深层语义和逻辑推理。此外,从模型中学习到的知识存在于参数中,是无法解释的。通过注入KGs的实体特征和事实知识,可以极大地缓解鲁棒性差和可解释性不足的问题。本文介绍的预训练模型大多侧重于语言知识和世界知识的利用,这些知识属于2.2.1节中定义的事实知识或概念知识。这类知识为预训练模型提供了丰富的实体和关系信息,极大地提高了预训练模型的深度理解和推理能力。



为了比较和分析现有的KEPTMs,我们首先根据注入知识的类型将其分为三类: 实体增强的预训练模型、三元组增强的预训练模型和其他知识增强的预训练模型。对于实体增强的预训练模型,所有这些模型都将知识和语言信息存储在预训练模型的参数中,属于基于耦合的KEPTMs。根据实体注入的方法,进一步将其分为实体特征融合模型和知识图谱监督预训练模型。对于三联体增强的训练前模型,我们根据三联体与语料是否耦合,将其分为基于耦合和基于解耦的KEPTMs。基于耦合的KEPTMs在训练前将单词嵌入和知识嵌入纠缠在一起,无法保持符号知识的可解释性。根据三联体输注方法,将基于耦合的KEPTMs分为三组: 嵌入联合KEPTMs、数据结构统一KEPTMs和联合训练KEPTMs。而基于解耦的KEPTMs则分别保留了知识和语言的嵌入,从而引入了符号知识的可解释性。我们将其划分为基于检索的KEPTMs,因为它通过检索相关信息来利用知识。其他知识增强模型也可分为基于耦合和基于解耦的KEPTMs。我们进一步将其分为联合训练和基于检索的KEPTMs。



---------♥---------


声明:本内容来源网络,版权属于原作者


图片来源网络,不代表本公众号立场。如有侵权,联系删除


AI博士私人微信,还有少量空位




如何画出漂亮的深度学习模型图?


如何画出漂亮的神经网络图?


一文读懂深度学习中的各种卷积


点个在看支持一下吧


推荐阅读
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 本文详细介绍了 Java 网站开发的相关资源和步骤,包括常用网站、开发环境和框架选择。 ... [详细]
  • MATLAB实现Sobel边缘检测算法
    图像边缘是指图像中灰度值发生显著变化的区域。Sobel算子是一种常用的边缘检测方法,通过计算图像灰度值的梯度来检测边缘。本文介绍了Sobel算子的基本原理,并提供了基于MATLAB的实现代码。 ... [详细]
  • 对于众多创业公司而言,选择小程序或小视频的发展方向至关重要。本文将深入分析小程序和小视频的特点、优势及局限,帮助创业者做出更明智的选择。 ... [详细]
  • 深入解析监督学习的核心概念与应用
    本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支,通过利用带有标签的训练数据,能够有效构建预测模型。文章详细解析了监督学习的关键概念,如特征选择、模型评估和过拟合问题,并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 基于OpenCV的图像拼接技术实践与示例代码解析
    图像拼接技术在全景摄影中具有广泛应用,如手机全景拍摄功能,通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法,并提供了示例代码解析,帮助读者深入理解该技术的实现过程。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
  • 中国安全防护服务运营分析:视频监控维护服务的未来走向与发展潜力
    本文探讨了视频监控运维服务在中国的发展趋势与潜力。近年来,随着对安全防护需求的不断增加,视频监控系统作为高效、直观且准确的防范工具,逐渐受到政府和企业的高度重视。该系统能够实时呈现设防区域的现场情况,为安全管理和应急响应提供了重要支持。未来,随着技术的不断进步和应用场景的拓展,视频监控运维服务有望迎来更加广阔的发展空间。 ... [详细]
  • python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析
    前言:在利用机器学习方法进行数据分析时经常要了解变量的相关性,有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]
  • 浅析python实现布隆过滤器及Redis中的缓存穿透原理_python
    本文带你了解了位图的实现,布隆过滤器的原理及Python中的使用,以及布隆过滤器如何应对Redis中的缓存穿透,相信你对布隆过滤 ... [详细]
  • 在《Python编程基础》课程中,我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景,帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外,还将介绍如何利用循环结构解决复杂问题,提高编程效率和代码可读性。 ... [详细]
  • AI TIME联合2021世界人工智能大会,共探图神经网络与认知智能前沿话题
    AI TIME携手2021世界人工智能大会,共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来,WAIC已成为全球AI领域的年度盛会,吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]
author-avatar
上帝的爱神_413_645
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有